Algorithme semi-interactif pour la sélection de dimensions

نویسندگان

Lydia Boudjeloud

François Poulet

چکیده

Résumé. Nous présentons un algorithme génétique semi-interactif de sélection de dimensions dans les grands ensembles de données pour la détection d'individus atypiques (outliers). Les ensembles de données possédant un nombre élevé de dimensions posent de nombreux problèmes aux algorithmes de fouille de données, une solution est d'effectuer un pré-traitement afin de ne retenir que les dimensions "intéressantes". Nous utilisons un algorithme génétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleurs nous souhaitons donner un rôle plus important à l'utilisateur dans le processus de fouille, nous avons donc développé un algorithme génétique semi-interactif où l’évaluation des solutions n'élimine pas complètement la fonction d'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin, l'importante réduction du nombre de dimensions nous permet de visualiser les résultats de l'algorithme de détection d'outlier. Cette visualisation permet à l'expert des données d'étiqueter les éléments atypiques (erreurs ou simplement des individus différents de la masse).

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

DynaClose : Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données

Résumé. L’indexation est l’une des techniques d'optimisation redondantes qui accélère les requêtes OLAP. Deux types d’index sont disponibles : les mono-index (B-tree, index binaire, projection, etc.) et les multi-index (index de jointure). Pour un entrepôt représenté par un schéma en étoile, les index de jointure binaires sont souvent utilisés pour accélérer les requêtes de jointure en étoile c...

متن کامل

Un critère d'évaluation pour la sélection de variables

Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une comb...

متن کامل

Une sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means

Résumé. Le volume d’information contenu dans un entrepôt de données s’accroît sans cesse, augmentant de ce fait le temps d’exécution des requêtes décisionnelles. Pour y remédier, l’administrateur doit, durant la phase de conception physique de l’entrepôt, effectuer une sélection de structures d’optimisation (index, vues matérialisées ou fragmentation), puis assurer leur gestion et maintenance. ...

متن کامل

SSC: Statistical Subspace Clustering

Résumé. Cet article se place dans le cadre du subspace clustering, dont la problématique est double : identifier simultanément les clusters et le sousespace spécifique dans lequel chacun est défini, et caractériser chaque cluster par un nombre minimal de dimensions, permettant ainsi une présentation des résultats compréhensible par un expert du domaine d’application. Les méthodes proposées jusq...

متن کامل

Clustering visuel semi-interactif

Résumé. Nous proposons dans cet article une approche de clustering visuel semi-interactif. L’approche proposée utilise la perception visuelle pour guider l’utilisateur dans le processus interactif. Les clusters sont extraits de manière successive et itérative, puis évalués selon leur ordre d’extraction. Pour l’utilisateur, l’approche semi-interactive permet non seulement d’évaluer les classes e...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2006

Algorithme semi-interactif pour la sélection de dimensions

نویسندگان

چکیده

منابع مشابه

DynaClose : Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données

Un critère d'évaluation pour la sélection de variables

Une sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means

SSC: Statistical Subspace Clustering

Clustering visuel semi-interactif

عنوان ژورنال:

اشتراک گذاری